Hoạt động Dịch_máy_bằng_nơ-ron

NMT không sử dụng các cách tiếp cận thống kê dựa trên cụm từ, với các thành phần con được thiết kế riêng biệt.[6] Dịch máy bằng nơ-ron (NMT) không phải là một bước lớn của dịch máy thống kê truyền thống (SMT). Nguyên lý chính của nó là việc sử dụng các biểu diễn vectơ ("nhúng", "biểu diễn không gian liên tục") cho các từ và trạng thái bên trong. Cấu trúc của các mô hình nơ-ron nhìn chung đơn giản hơn các mô hình dựa trên cụm từ. Không có mô hình ngôn ngữ, mô hình dịch thuật và mô hình sắp xếp lại riêng biệt, mà chỉ có một mô hình chuỗi nơ-ron duy nhất dự đoán từng từ một. Tuy nhiên, chuỗi nơ-ron này dựa trên toàn bộ câu nguồn và tạo ra toàn bộ câu kết quả.[7]

Mô hình NMT sử dụng học tập sâuhọc đại diện.

Mô hình chuỗi từ đầu tiên thường được tạo ra bằng cách sử dụng mạng nơ-ron hồi quy (RNN). Mạng nơ-ron hồi quy hai chiều, được gọi là bộ mã hóa (encoder), được sử dụng để mã hóa câu nguồn cho RNN thứ hai, được gọi là bộ giải mã (decoder), được sử dụng để dự đoán các từ trong ngôn ngữ đích.[8]

Mạng nơ-ron tích chập (Convolutional Neural Networks: Convnets) về nguyên tắc có phần tốt hơn cho các chuỗi nơ-ron dài liên tục, nhưng ban đầu không được sử dụng do một số điểm yếu, các điểm yếu này đã được bù đắp thành công vào năm 2017 bằng cách sử dụng phương pháp tiếp cận dựa trên "sự chú ý".[9][10]